Yiksan0315's Blog

Word Embedding

# Tag:

  • Source/KU_ML2

Word Embedding

NLP에서 단어를 Embedding을 이용해 저차원 벡터 공간의 벡터로 변환하는 기법.

이 때 벡터화를 통해 단어 간 의미적 관계를 반영하는 특이한 특성이 나타나는데, 이를 통해 언어의 의미적 유사성 혹은 문법적 유사성을 학습하도록 할 수 있다.

기존의 방식은 단어를 차원의 one-hot vector로 나타내는 방식을 사용했다.
이러한 방식은 과한 수준의 고차원으로 나타나 차원의 저주 문제가 발생할 뿐더러, syntactic 혹은 semantic한 관계를 반영하지 못했다. 또한 sparse하기 때문에 계산에 있어서도 비효율적이었다.

이와 달리 word embedding은 저차원의 dense한 벡터로 단어를 표현한다. 이 과정에서, 단어의 syntatic 혹은 semantic한 관계에 따라 백터가 밀집하는 특성이 나타나는 특이한 현상이 생겨 이를 학습에 이용 가능하다.

toc test

이 페이지는 리디주식회사에서 제공한 리디바탕 글꼴이 사용되어 있습니다. 리디바탕의 저작권은 리디주식회사가 소유하고 있습니다.

This Font Software is licensed under the SIL Open Font License, Version 1.1.

Copyright 2025. yiksan0315 All rights reserved.